Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

    В рабочей директории были созданы индексные файлы по геномам Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.

  1. Создание индексных файлов для программ пакета BLAST

  2. В рабочей директории были созданы индексные файлы по геномам Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.

  3. Поиск в геноме участков, кодирующих белки, похожие на заданный
  4. Для решения данной задачи была выбрана программа из пакета BLAST - TBLASTN.

    Таблица1
    Поиск гомологов YAHK_ECOLI  Геном S. typhimurium
    Число находок с Е-value<0,001 9
    Характеристика лучшей находки:
    E-value находки  1,00E-43
    AC соответствующей записи EMBL  AE008910
    координаты выравнивания(-ий) в записи EMBL 15874 - 14879 (complete genome) 
    Координаты CDS в записи EMBL (если они есть) complement(14864..15883)
    AC UniProt в записи EMBL (если есть) Q8ZK20
    Координаты CDS в записи EMBL (если они есть) complement(14864..15883)
    Секция генома 214
    Ген yjgB

    Процент идентичности с наилучше находкой оказался 32%. Процент достаточный для гомологии, тем более что данный белок, кодируемый CDS, по функции (putative alcohol dehydrogenase) похож на белок YAHK_ECOLI (Zinc-type alcohol dehydrogenase)

    Таблица1
    Результат поиска по трем геномам
    Число находок с Е-value<0,001 15
    E-value AE008910 3,00E-43
    Общее число находок 24

    В результате поиска по трем геномам сразу вес находки AE008910 (yjgB) уменьшился (так как увеличилось число последовательностей белков, среди которых мы ищем гомологов). Наибольшей же находкой стала AE012096 (Xanthomonas campestris) с Е-value e-117 (Identities = 214/347 (61%)), можно считать большим гомологом, чем AE008910 : процент идентичности больше, а также данный ген кодирует белок уже с настоящей, а не мнимой (AE008910) функцией алкогольдегидрогеназы.

  5. Поиск гомологов с помощью программы BLASTN
  6. Был произведен поиск гомологов гена, кодирующего белок YAHK_ECOLI, в трёх геномах (Salmonella typhimurium, Xanthomonas campestris,Pasteurella multocida) программой BLASTN. В результате был найден предположительный гомолог AE012427 с E-value: 0.16 (самое лучшее выравнивание). .

    		>AE012427 AE008922 |AE012427| Xanthomonas campestris pv. campestris
                str. ATCC 33913,  section 335 of 460 of the complete
                genome.
              Length = 11105
    
     Score = 36.2 bits (18), Expect = 0.16
     Identities = 18/18 (100%)
     Strand = Plus / Plus
    
    
    Query: 574  aagctggcccacgcgatg 591
                ||||||||||||||||||
    Sbjct: 9323 aagctggcccacgcgatg 9340
    

    Вес всех находок очень маленький. Размер выравненных последовательностей также мал. Следовательно о гомологии говорить здесь очень трудно, то есть программа BLASTN в данном случае не подходит для поиска гомологов

    Выравнивания


    к упражению 2, таблице 1.

    >AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of
                 220 of the complete genome.
              Length = 20648
    
     Score =  171 bits (433), Expect = 1e-43
     Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%)
     Frame = -2
    
    Query: 3     IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62
                 IK+  A  A   LE  +    E  P DV++ + YCG+CHSDL  + +EW  + YP V GH
    Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695
    
    Query: 63    EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120
                 E++GRV A+G   Q +    G  VG+G    SC HC+ C  G +  C         PT
    Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530
    
    Query: 121   EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179
                       GG+++++    ++V+ +  P+   +A+  PLLC GIT + PL
    Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365
    
    Query: 180   XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239
                              L HAMG  V AF+++ +K +   A+GA+ VVNSR+ + + A    FD
    Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185
    
    Query: 240   FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299
                  I+NTV    +   +   L   G    VGA   P   P  F LI   R+I+GS  G   E
    Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008
    
    Query: 300   TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342
                  ++++ F     +    E+    QINEA + +  G  +YR V+
    Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879
    

    К упражнению 2, таблице 2

    >AE012096 AE008922 |AE012096| Xanthomonas campestris pv. campestris
                str. ATCC 33913,  section 4 of 460 of the complete
                genome.
              Length = 12092
    
     Score =  417 bits (1073), Expect = e-117
     Identities = 214/347 (61%), Positives = 243/347 (70%), Gaps = 1/347 (0%)
     Frame = +2
    
    Query: 2    KIKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPG 61
                K  A  A +A QPL P    RR PGP+DV+I+IAYCGVCHSDLH  R+EW  TVYP VPG
    Sbjct: 3302 KAHAYAAQTADQPLAPFVFERRAPGPDDVQIDIAYCGVCHSDLHTARNEWHNTVYPSVPG 3481
    
    Query: 62   HEIVGRVVAVGDQVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDH-MTGTYNSPTPD 120
                HEIVGRV AVG  V  +  GDL GVGC+VDSC+ C  C++G E YC+   TGTYN P
    Sbjct: 3482 HEIVGRVTAVGSAVTNFKVGDLAGVGCMVDSCRSCASCQEGEEQYCEQGFTGTYNGPMFG 3661
    
    Query: 121  EPGHTLGGYSQQIVVHERYVLRIRHPQEQLAAVAPLLCAGITTYSPLRHWQAXXXXXXXX 180
                   +T GGYS  IVV ++YVL I H  + LAAVAPLLCAGITTYSPL HW+
    Sbjct: 3662 GGENTYGGYSDHIVVDQKYVLHISH-SDNLAAVAPLLCAGITTYSPLAHWKVGPGQKVGV 3838
    
    Query: 181  XXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFDF 240
                            +A AMGA VV FTTSE+KR  A  LGA EVV S++  +MAA   + DF
    Sbjct: 3839 VGLGGLGHMAVKIAKAMGATVVLFTTSESKRADALRLGASEVVISKDEAQMAAQYNTLDF 4018
    
    Query: 241  ILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPET 300
                ILNTVAAPHNLD F   LKRDG M LVG P   H SP VFNL+MKRR +AGS+IGGI +T
    Sbjct: 4019 ILNTVAAPHNLDPFLNALKRDGAMVLVGVPEHSHPSPAVFNLVMKRRTLAGSLIGGIRQT 4198
    
    Query: 301  QEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVIDNRTL 347
                QEMLDFCA+H IV+DIE IRADQINEAYERML+GDVKYRFVID  TL
    Sbjct: 4199 QEMLDFCAKHNIVSDIETIRADQINEAYERMLKGDVKYRFVIDMDTL 4339
    
    >AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of
                 220 of the complete genome.
              Length = 20648
    
     Score =  171 bits (433), Expect = 3e-43
     Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%)
     Frame = -2
    
    Query: 3     IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62
                 IK+  A  A   LE  +    E  P DV++ + YCG+CHSDL  + +EW  + YP V GH
    Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695
    
    Query: 63    EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120
                 E++GRV A+G   Q +    G  VG+G    SC HC+ C  G +  C         PT
    Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530
    
    Query: 121   EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179
                       GG+++++    ++V+ +  P+   +A+  PLLC GIT + PL
    Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365
    
    Query: 180   XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239
                              L HAMG  V AF+++ +K +   A+GA+ VVNSR+ + + A    FD
    Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185
    
    Query: 240   FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299
                  I+NTV    +   +   L   G    VGA   P   P  F LI   R+I+GS  G   E
    Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008
    
    Query: 300   TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342
                  ++++ F     +    E+    QINEA + +  G  +YR V+
    Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879
    

на главную